The goal of 3D pose transfer is to transfer the pose from the source mesh to the target mesh while preserving the identity information (e.g., face, body shape) of the target mesh. Deep learning-based methods improved the efficiency and performance of 3D pose transfer. However, most of them are trained under the supervision of the ground truth, whose availability is limited in real-world scenarios. In this work, we present X-DualNet, a simple yet effective approach that enables unsupervised 3D pose transfer. In X-DualNet, we introduce a generator $G$ which contains correspondence learning and pose transfer modules to achieve 3D pose transfer. We learn the shape correspondence by solving an optimal transport problem without any key point annotations and generate high-quality meshes with our elastic instance normalization (ElaIN) in the pose transfer module. With $G$ as the basic component, we propose a cross consistency learning scheme and a dual reconstruction objective to learn the pose transfer without supervision. Besides that, we also adopt an as-rigid-as-possible deformer in the training process to fine-tune the body shape of the generated results. Extensive experiments on human and animal data demonstrate that our framework can successfully achieve comparable performance as the state-of-the-art supervised approaches.
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
基于激光雷达的3D场景感知是自动驾驶的基本和重要任务。大多数基于激光雷达的3D识别任务的最新方法都集中在单帧3D点云数据上,并且这些方法在这些方法中被忽略。我们认为,整个框架的时间信息为3D场景感知提供了重要的知识,尤其是在驾驶场景中。在本文中,我们专注于空间和时间变化,以更好地探索3D帧的时间信息。我们设计了一个时间变化 - 意识到的插值模块和时间体素点炼油厂,以捕获4D点云中的时间变化。时间变化 - 意识插值通过捕获空间连贯性和时间变化信息来生成从上一个和当前帧的局部特征。时间体素点炼油厂在3D点云序列上构建了时间图,并使用图形卷积模块捕获时间变化。时间体素点炼油厂还将粗素级预测转换为精细的点级预测。通过我们提出的模块,新的网络TVSN在Semantickitti和Semantiposs上实现了最先进的性能。具体而言,我们的方法在MIOU中达到52.5 \%(以前的最佳方法+5.5%)在Semantickitti的多个扫描细分任务上,semanticposs的多个扫描分段任务(63.0%)(以前的最佳方法+2.8%)。
translated by 谷歌翻译
在这项工作中,我们解决了长尾图像识别的具有挑战性的任务。以前的长尾识别方法通常集中于尾巴类别的数据增强或重新平衡策略,以在模型培训期间更加关注尾巴类。但是,由于尾巴类别的训练图像有限,尾部类图像的多样性仍受到限制,从而导致特征表现不佳。在这项工作中,我们假设头部和尾部类中的常见潜在特征可用于提供更好的功能表示。由此激励,我们引入了基于潜在类别的长尾识别(LCREG)方法。具体来说,我们建议学习一组在头和尾巴中共享的类不足的潜在特征。然后,我们通过将语义数据扩展应用于潜在特征,隐式地丰富了训练样本的多样性。对五个长尾图识别数据集进行的广泛实验表明,我们提出的LCREG能够显着超越先前的方法并实现最新结果。
translated by 谷歌翻译
自然语言伯特以自我监督的方式用语言语料库培训。与自然语言贝尔有不同,Vision语言伯特需要将配对的数据带到训练,这限制了VL-BERT预制的规模。我们提出了一种自我训练方法,允许从未标记的图像数据训练VL-BERT。所提出的方法从我们统一的条件模型开始 - 一个可以执行零拍条件生成的视觉语言BERT模型。给定不同的条件,统一的条件模型可以生成标题,密集的标题,甚至是问题。我们使用标记的图像数据来训练教师模型,并使用训练模型在未标记的图像数据上生成伪字幕。然后,我们将标记的数据和伪标记数据组合以培训学生模型。通过将学生模型作为新老师提出该过程。通过使用拟议的自我训练方法,只有300k未标记的额外数据,我们能够与培训300万额外的图像数据培训的类似型号尺寸的模型相比,我们能够获得竞争或更好的表演。
translated by 谷歌翻译
数据增强是减少过度装备和提高学习性能的重要技术,但是现有的3D点云数据的数据增强的工作基于启发式。在这项工作中,我们建议使用Bilevel优化自动学习数据增强策略。增强器以类似的方式设计为条件发生器,并且在增强输入用于训练模型时最小化基础模型对验证集的损耗来进行优化。此配方提供了更为原则的方法来学习3D点云上的数据增强。我们评估了我们对标准点云分类任务的方法以及培训和验证/测试集之间的构成错位的更具挑战性。该拟议的战略在两个任务方面实现了竞争性能,我们提供了进一步了解增强者学习验证集分发的能力。
translated by 谷歌翻译
知识蒸馏是一种有前途的学习范式,用于提高资源有效的图形神经网络(GNNS)的性能和可靠性使用更多富有表现力而繁琐的教师模型。过去的GNNS蒸馏工作提出了局部结构保存损失(LSP),它与学生和教师节点嵌入空间的局部结构关系匹配。在本文中,我们提出了两个关键贡献:从方法的角度来看,我们研究了是否保留了教师嵌入图数据的全球拓扑结构对于GNN的更有效的蒸馏物目标,因为真实世界的图表通常包含潜在的相互作用和嘈杂边缘。通过预定义边缘的纯粹本地LSP目标无法实现这一目标,因为它忽略了断开的节点之间的关系。我们提出了两种新方法,更好地保留了全球拓扑结构:(1)全局结构保存损失(GSP),其扩展了LSP掺入所有成对相互作用; (2)曲线图对比度表示蒸馏(G-CRD),它使用对比学学习将学生节点嵌入的学生节点嵌入到参与表示空间中的教师。从实验的角度来看,我们在大型现实世界数据集中介绍了一组扩展的基准,教师和学生GNN之间的性能差距是不可忽略的。我们认为这对于测试知识蒸馏的功效和稳健性至关重要,但是从LSP研究中缺少,使用具有琐碎性能间隙的合成数据集。 4个数据集和14个异构GNN架构的实验表明,G-CRD始终如一地提高了轻量级GNN型号的性能和稳健性,优于维护方法,LSP和GSP的结构,以及由2D计算机视觉调整的基线。
translated by 谷歌翻译
3D姿势传输是最具挑战性的3D生成任务之一。它旨在将源网的姿势传递到目标网格,并保持目标网格的身份(例如,体形)。某些以前的作品需要关键点注释来构建源网格和目标网格之间的可靠对应,而其他方法不考虑源和目标之间的任何形状对应,这导致了有限的发电质量。在这项工作中,我们提出了一种通信细化网络,以帮助为人类和动物网格进行3D姿势转移。首先通过解决最佳运输问题来建立源网和目标网格之间的对应关系。然后,我们根据密集的对应探讨源网格并获得粗糙的翘曲网格。通过我们提出的弹性实例标准化,翘曲的网格将更好地精制,这是一个条件归一化层,可以帮助产生高质量网格。广泛的实验结果表明,所提出的架构可以有效地将源从源转移到目标网格,并提供比最先进的方法满意的视觉性能更好的结果。
translated by 谷歌翻译
无人监督的学习目睹了自然语言理解和最近的2D图像领域的巨大成功。如何利用无监督学习的3D点云分析的力量仍然是开放的。大多数现有方法只是简单地适应2D域中使用的技术到3D域,同时不完全利用3D数据的特殊性。在这项工作中,我们提出了一种对3D点云的无监督代表学习的点辨别学习方法,该方法专门为点云数据设计,可以学习本地和全局形状特征。我们通过对骨干网络产生的中间级别和全球层面特征进行新的点歧视损失来实现这一目标。该点歧视损失强制执行与属于相应局部形状区域的点,并且与随机采样的嘈杂点不一致。我们的方法简单,设计简单,通过添加额外的适配模块和用于骨干编码器的无监督培训的点一致性模块。培训后,可以在对下游任务的分类器或解码器的监督培训期间丢弃这两个模块。我们在各种设置中对3D对象分类,3D语义和部分分割进行了广泛的实验,实现了新的最先进的结果。我们还对我们的方法进行了详细的分析,目视证明我们所学到的无监督特征的重建本地形状与地面真理形状高度一致。
translated by 谷歌翻译